查看原文
其他

连载(15):统计图形艺术——回归模型诊断

easyPlot图形小组 百步优解
2024-11-28

中国近代启蒙思想家、翻译家严复(1854-1921)提出,翻译力求信、达、雅。统计图形,亦须如此。信(faithfulness),指意义不悖原文,要准确传达数据原有之义,不偏离,不遗漏,也不要随意增减意思;达(expressiveness),指不拘泥于固有形式,译力求通顺、易懂、明白;雅(elegance),指选用的图形、样式要得体,力求简明、优雅。

生物医学研究产生的数据纷繁复杂,合适的统计图形能够准确、简明、优雅的勾勒出数据背后之意,消除医学-数据-内涵之间的障碍,准确传递生物医学研究成果,这就是医学统计图形的魅力。

历经半年准备,我们图形小组将按照数据可视化、统计可视化、集成可视化三个模块,连载推送医学研究中常用统计图形之背景、场景、拓展、要点。文稿有多处不足,请广大读者斧正。尚有多处示例待优化,欢迎提供素材。





       

15
回归模型诊断Regression Model Diagnostics




           

简介回归模型诊断,作为回归分析的重要内容,是通过一系列的方法,对数据是否满足回归分析模型假设,以及数据是否存在异常情况而影响结果的稳定性等问题进行的分析。在做线性回归时资料需满足:线性(Linearity)、独立性(Independence)、正态性(Normality)、方差齐性(Equal of Variance,Homoscedasticity)条件,合称LINE假设。通常需要检查的内容包括:
  1. 残差是否服从正态分布,方差是否随X的变化而变;

  2. 否存在异常值(离群点、高杠杆点、强影响点);

  3. 选择的线性模型是否合适;

  4. 自变量间是否存在多重共线性的问题。                   

               

           


           

应用场景 

适用于线性模型的诊断,亦可扩展用于广义线性模型。

                   



应用示例


01残差诊断Regression Residual





残差图,是以残差为纵坐标,其他合适的值为横坐标的散点图,以反映残差的值域分布和残差随着横坐标变量变化之趋势


例: 本例以拟合的预测值为横轴,残差为纵轴来检验模型假设的合理性。理论上所有残差应在0上下随机波动,且变化幅度应在一定范围内。如图所示,本例建立的回归模型效果不佳,应考虑其他方法进行改进(图 15.1)。





图15.1:回归模型残差诊断图




理论上,标准化后的残差应服从标准正态分布,本例使用QQ图来检验残差的正态性,如图所示,代表残差分位数的散点基本集中于对角线上,说明其近似服从正态分布(图 15.2),反之,若不是如此,就应考虑是否违反了正态性的假设





图15.2:回归模型残差诊断图之QQ图




理论上,预测模型残差的方差是一个常数。可通过绘制以拟合值为x轴,以开方的标准化残差为y轴的散点图,若方差齐,则散点图的拟合线应为水平线,或在一定水平波动,否则提示方差不齐(图 15.3)





图15.3:残差方差齐性诊断图



残差分析可用来检测离群点,标准化残差偏离超过2的(理论上有约5%的概率),需注意;超过2.5的需格外注意(理论上有1%的机会);而超过3的,需要深入检查数据的异常情况(理论上只有0.0027的机会)。由图可见(图 15.4),有两个潜在异常数据需要检查。另,可用outlierTest(lmfit)函数来检验异常值。


例: 本例以拟合的预测值为横轴,残差为纵轴来检验模型假设的合理性。理论上所有残差应在0上下随机波动,且变化幅度应在一定范围内。如图所示,本例建立的回归模型效果不佳,应考虑其他方法进行改进(图 15.4)





图15.4:回归模型残差诊断









02杠杆诊断Regression Leverage Diagnostics





高杠杆点,通常指自变量中出现的异常点,一般认为杠杆值大于(p+1)/n的值,可能为高杠杆值,n为样本量,p为自变量个数。帽子统计量也可用于判断高杠杆点,帽子值可用hatvalues函数计算。


为了评估各数据点对回归结果的影响,可以采用弃一法来逐一拟合n次回归,有和无该点所致预测值(yhat)的变化,体现各点对回归模型的影响的强弱 [1](图 15.5)。





图15.5:杠杆诊断图









03强影响点诊断Regression Influence Diagnostics





强影响点,即对参数估计或预测有异常大的影响的数据点。若移除某一个强影响点,模型的参数会发生很大的变动,存在这样的点,会使模型的稳健性大打折扣(图 15.6)。





图15.6:强影响点诊断图









04Cook距离诊断Regression Cook's Distance Diagnostics





例:续上例,亦可估算各点的Cook距离。美国统计学家Ralph Dennis Cook于1977年提出Cook distance [2],其衡量的是由全部数据得到的回归系数与删去第i个观测值得到的回归系数之间的差异。距离越大者,可认为对模型的影响越大。距离超过4/(n-p-1)者,可认为该点对模型拟合有影响。其中n为样本量,p为自变量个数。可使用R包lindia中的gg_cooksd函数绘制,如图可见,可认为号码为193、204、179的小学数据对模型拟合有影响(图 15.7)





图15.7:Cook距离诊断针板图









05综合诊断Regression Joint Evaluation






通过infIndexPlot()函数来绘制异常、杠杆、强影响等三个评价指标的棒棒糖图(图 15.8)。influence.measures()函数可以输出诊断详情。





图15.8:异常点、杠杆和强影响等回归诊断结果




可绘制杠杆与Cook距离之间的关系图来综合分析异常点。如图所示,所加的辅助线为标准化残差等高线(图 15.9)。






图15.9:杠杆与Cook距离关系图




亦可将三者绘制于一副图中来检测强影响点。其中:x轴为杠杆值,y轴为标化后的残差,各气泡大小表示Cook距离。纵坐标超过2或者小于-2的点可能被认为是离群点,气泡很大的点可能是对模型参数的估计造成影响的强影响点。





图15.10:异常点、杠杆和强影响等

回归诊断结果融合图




与上图作用类似,纵坐标超过2或小于-2的点被视为离群点,横轴超过垂直虚线的点中可能存在高杠杆值,气泡越大表示越可能为强影响






图15.11:异常点、杠杆和强影响

等回归诊断结果融合图










注意事项:
  1. 应注意辨析离群点、高杠杆值点和强影响点。
  2. 强影响点并不一定是不好的,而是说如果某个点影响特别大,那么需要进一步调查,如判断是否需要对变量进行转换。
  3. 如果发现异常点,首先检查其是否由操作错误导致,如输入错误,测量错误等,如果是,那么直接删除。但是有时候异常点会提示重要的信息,因此如果异常点不是由操作错误导致,则需进一步的调查,不可简单删除了事。并且所有删除数据点的方法和理由都应该呈现在结果报告中。删除数据点后要与删除之前的模型作比较,看模型是否变得更好,并将两个模型都记录在结果中。





以上为回归模型诊断在医学研究中的常用场景示例,尚有更多扩展。篇幅有限,欢迎联系获取源码。
参考文献:
  1. Everitt B. Book reviews : Chambers JM, hastie TJ eds 1992: Statisti cal models in s. California: Wadsworth and brooks/cole. ISBN 0 534 16765-9. 1992;1(2):220–1. Available from: https://journals.sagepub.com/doi/abs/10.1177/096228029200100208

  2. Cook RD. Detection of influential observation in linear regression. 1977;19(1):15–8.






写作:魏永越*,张隆垚

排版:李   颖

审阅:陈   峰


关注公众号,联系获取源码


欢迎供稿 | 敬请斧正

easyPlot小组 (easyplot@126.com)

责任作者 (weiyongyue@126.com)


Powered by 



END



往期回顾BREAK AWAY连载(1):统计图形艺术——条形图
连载(2):统计图形艺术——线图
连载(3):统计图形艺术——饼图
连载(4):统计图形艺术——直方图
连载(5):统计图形艺术——点图
连载(6):统计图形艺术——箱线图
连载(7):统计图形艺术——散点图
连载(8):统计图形艺术——热图
连载(9):统计图形艺术——三元图
连载(10):统计图形艺术——QQ图
连载(11):统计图形艺术——概率和统计分析
连载(12):统计图形艺术——曲线平滑
连载(13):统计图形艺术——线性回归
连载(14):统计图形艺术——非线性回归
统计图形艺术——“图形”英文词意辨析


继续滑动看下一个
百步优解
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存